CAAL: Bandidos contextuales para selección de estrategias activas artesanales
CAAL usa bandidos contextuales para seleccionar dinámicamente estrategias de aprendizaje activo basadas en contexto externo.
CAAL usa bandidos contextuales para seleccionar dinámicamente estrategias de aprendizaje activo basadas en contexto externo.
Descubre cómo la regularización KL mejora el aprendizaje por refuerzo ante modelos incorrectos. Nuevas garantías teóricas para algoritmos robustos. ¡Lee más!
Bandidos contextuales con aprobación humana reducen el cold-start de 150 a 30 episodios. Aprende la estrategia warm-up histórico.
Descubre por qué la optimización es clave en el aprendizaje off-policy con grandes espacios de acción, y cómo los pesos de verosimilitud simplifican el proceso.
Descubre un nuevo algoritmo que logra regret casi óptimo en tiempo polinomial para bandidos contextuales lineales con pérdidas adversariales, sin necesidad de simulador.
Descubre un enfoque directo para manejar bandidos contextuales con estados latentes. Aprende cómo reducir el problema a bandidos lineales y mejorar las decisiones en entornos inciertos.
Algoritmos GNEP sin compartir multiplicadores para robótica y aprendizaje activo con bandidos contextuales. Mejora eficiencia y privacidad.